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基于 SCDV 及 各 向 异性 调整 BERT 的 文本 语义 消 层 方 法 


李 保 珍 ， 顾 秀 莲 


(南京 审计 大 学 信息 工程 学 院 , 南京 211815) 


摘 要 : 文本 表示 需要 解决 文本 词语 的 歧义 性 问题 ， 并 能 够 准确 界定 词语 在 特定 上 下 文 语 境 中 的 语义 特征 。 针 对 词 
语 的 多 义 性 及 语 境 特征 问题 ， 提 出 了 一 种 文本 语义 消 歧 的 SCDVAB 模型 。 主 要 创新 点 有 : 基于 分 区 平均 技术 ， 将 场 
景 语 料 库 转换 为 文档 诅 入 ， 并 引入 各 向 异性 ,改进 了 软 聚 类 的 黎 疏 复合 文档 向 量 (SCDV) 算 法 ， 以 提高 BERT 的 语 境 
化 表示 能 力 ; 将 调整 各 向 异性 后 的 BERT 词语 误 入 ， 作 为 静态 词语 向 量 的 文档 上 诅 入 ， 以 提升 文本 语义 消 歧 的 能 
通过 大 量 实验 进一步 证 明 ，SCDVAB 模型 的 效果 明显 优 于 传统 的 文本 消 歧 算法 ， SCDVAB 模型 可 有 效 提高 文本 语 
义 消 歧 的 综合 性 能 。 

关键 词 : 语义 消 歧 ; 各 向 异性 ; BERT; 稀疏 复合 文档 向 量 ; 文本 表示 
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Text semantic disambiguation based on SCDYV and anisotropy adjusted BERT 


Li Baozhen, Gu Xiulian 
< (College of Information Engineering, Nanjing Audit University, Nanjing 211815, China) 


Abstract: Solving the problem of ambiguity of text words is important for text representation, and it can accurately define 
the semantic characteristics of words in a specific context. Aiming at the polysemy and contextual characteristics of words, 
this paper proposed a semantic disambiguation model of SCDVAB. The main innovations are: Based on the partition average 
technology, it can convert Scene corpus into document embedding, and introduce anisotropy to improve the sparse composite 
document vector (SCDV) algorithm of soft clustering to improve the contextual representation ability of BERT; and then it 
can improve the ability of text semantic disambiguation by embedding the BERT words after adjusting the anisotropy as a 
static word vector. Through many experiments, SCDVAB model is significantly better than the traditional text disambiguation 
algorithm. SCDVAB model can effectively improve the comprehensive performance of text semantic disambiguation. 

Key words: semantic disambiguation; anisotropy; bidirectional encoder representations from transformers (BERT); SCDYV; 
text representation 


0 ”引言 征 ， 即 它们 在 不 同方 向 上 不 是 均匀 分 布 的 ， 在 向 量 空间 中 
本 据 一 个 狭窄 的 圆锥 体 趾 。 各 向 异性 是 指 文 本 词语 的 全 部 或 部 
(CS 文本 语义 高 度 依赖 于 组 成 文本 的 词语 ， 同 一 词语 在 不 同 分 含义 随 着 语义 空间 维度 方向 的 改变 而 有 所 变化 ， 在 不 同 的 
| 的 上 下 文 语 境 中 ， 可 能 具有 不 同 的 含义 ， 进 而 存在 歧义 性 干 语义 空间 维度 方 加 上 呈现 出 差异 的 性 质 。 例 如 词语 “苹果 ”， 
CS 扰 。 如 何 通过 消 歧 来 提高 文本 表示 的 准确 性 ， 一 直 是 理论 和 在 上 下 文 语 境 为 水 果 的 语义 空间 维度 中 ， 在 水 果 相 关 特 征 维 

实践 所 关注 的 重点 。 对 文本 表示 的 一 系列 研究 表明 , 用 于 名 度 的 方向 具有 更 为 显著 的 投影 ;在 上 下 文 语 境 为 电子 产品 的 
子 表 示 的 词 向 量 加 权 平 均 通常 优 于 更 复杂 的 神经 模型 。 语义 空间 维度 中 ， 在 电子 产品 相关 特征 维度 方向 具有 更 为 显 
SCDV(Sparse Composite Document Vectors， 稀 玻 复合 文档 向 著 的 投影 。 一 个 词语 的 语 境 化 表示 中 只 有 不 到 5% 的 差异 可 
量 ) 将 能 够 界定 词语 场景 性 语义 的 词语 对 入 模型 与 能 够 处 理 以 用 该 词语 的 静态 岁入 来 解释 外。 这 也 为 调整 各 向 异性 ， 减 


Py 


不 同 词义 的 潜在 主题 模型 结合 起 来 ,可 增强 词语 的 表达 能 力 。 ” 少 各 向 异性 对 文本 词语 语 境 化 表示 的 影响 提供 了 必要 性 理 | 
使 用 肉 入 的 软 聚 类 技术 ， 可 有 效 学 习 主题 特征 空间 ， 通 过 文 针对 上 述 问 题 ， 本 文 提出 一 种 简单 有 效 的 无 监督 表示 方 
档 向 量 的 稀 玻 化 操作 ， 可 减少 处 理 向 量 任务 的 时 间 和 空间 复 。 法 SCDVAB(SCDV+Anisotrop+BERT) 模 型 。 主 要 创新 点 为 : a) 
杂 性 ， 并 能 够 有 效 处 理 文本 表示 的 分 布 式 段落 向 量 。 通过 软 聚 类 的 稀疏 复合 文档 向 量 (SCDV) 分 区 平均 技术 , 将 场景 
静态 词 嵌 入 的 一 个 显著 问题 是 多 义 词 的 所 有 含义 共用 语料库 转换 为 文档 嵌入 ; b) 在 SCDV 流程 中 ， 基 于 自 相 似 性 、 


Le] 


个 固定 的 静态 向 量 ， 但 静态 词 向 量 难 以 有 效 解决 一 词 多 义 问 ” 句 内 相似 性 及 最 大 可 解释 方差 调整 各 向 异性 ， 以 提高 BERT 的 
题 。 用 基于 上 下 文 语 境 的 词语 散 入 代替 静态 词 宜 入 可 以 提高 。 语 境 化 表示 能 力 ; c) 将 调整 各 向 异性 后 的 BERT 词语 岁入 作为 
词语 消 歧 的 效果 ， 如 以 BERT 为 例 的 深层 神经 语言 模型 可 将 。 静态 词语 向 量 的 文档 岁入 ， 以 提升 文本 语义 消 歧 的 能 力 。 相 关 
静态 嵌入 蔡 换 为 上 下 文 语 境 的 词 能 入 。 通 过 预 训练 的 BERT ”实验 结果 显示 出 SCDVAB 模型 在 精确 性 上 优 于 现 有 技术 , 能 


由 


模型 能 够 将 多 义 词 分 别 放置 在 具有 不 同 含义 的 语义 空间 中 ， 提高 概念 匹配 及 语义 文本 相似 度 等 相关 任务 的 性 能 。 

进而 可 输出 不 同 的 词 向 量 ， 可 解决 静态 嵌入 无 法 有 效 解决 的 1 ”相关 工作 

一 词 多 义 问题 ， 实 现 基于 语 境 化 藤 入 的 可 解释 词义 消 歧 。 此 

外 ，BERT 模型 中 上 下 文 语 境 性 词语 表示 具有 各 向 异性 的 特 对 于 短文 本 和 文档 表示 任务 ， 需 要 将 词语 嵌入 扩展 到 整 
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录用 定稿 


个 段落 和 文档 。 


布 式 表 示 模 型 


式 BoWs 段落 向 量 (PV-DBoW)， 将 每 个 句子 视 为 共享 的 全 局 


李 保 珍 ， 等 : 基于 SCDV 及 各 向 异性 调整 BERT 的 文本 语义 消 歧 方 法 


Le 和 Mikolov 在 2014 年 提出 了 两 种 文本 分 
， 即 分 布 式 内 存 模型 段落 向 量 (PV-DM) 和 分 布 


潜在 向 量 中 。 这 两 种 模型 训练 词语 和 段落 向 量 来 预测 上 下 文 , 但 


在 段落 之 间 共 享 词 租 入 。 然 而 ， 词 语 在 不 同 的 语 境 中 可 能 有 


不 
同 的 语义 。 在 包含 相同 词语 的 两 个 不 同意 义 上 的 文本 的 向 量 需 
要 考虑 这 种 区 别 ， 以 便 准确 地 表示 文本 的 语义 。 此 外 ， 尽 管 段 

入 在 


同一 空间 中 。 
相等 ， 这 和 忽 
Ling 将 词 


降低 了 


落 向 量 可 以 包含 多 个 主题 和 多 个 词义 ， 但 它 与 词语 向 量 嵌 
段落 向 量 还 假设 所 有 词语 在 权重 和 质量 上 
各 了 词语 在 不 同文 本 中 的 重要 性 和 独特 性 。 


的 不 同意 义 欠 。 
表达 能 力 。2015 年 , Mukerjee 等 人 提出 了 词语 向 量 的 idf 


加 权 平 均 ， 以 


成 文档 向 量 钻 。 但 是 ,其 假定 文本 中 的 所 有 词语 
都 属于 同一 语义 主题 。Gupta 在 2016 年 提出 了 一 种 使 用 词语 | 


的 贡献 


语 肉 入 映射 到 潜在 主题 空间 ， 以 捕捉 词语 出 现 
但 是 ,在 与 文字 相同 的 空间 中 表示 复杂 文档 ， 


入 和 tf-idf 值 


(BoWV)I9。BoWV 背后 的 核心 思想 是 语义 不 同 的 词 属于 不 同 世 
主题 ， 但 是 该 模型 的 词 向 量 平均 设置 


腾 
形成 复合 文档 向 量 的 方法 ， 称 为 词语 包 向 量 
的 


有 一 定 的 局 限 性 。 


Mekala 等 人 在 2017 年 
稀 玖 聚 类 ,使 用 tf-idf 加 权 形 成 稀疏 复合 文档 回 量 (SCDV)Wl。 
SCDYV 作为 一 种 文档 的 特征 向 量 形成 技术 克服 了 广泛 用 于 文 
本 表示 的 分 布 式 段落 向 量 表示 的 一 些 缺 点 。 然 而 这 种 方法 在 
一 定 程度 上 忽略 了 文本 词语 的 歧义 性 问题 以 及 上 下 文 语 境 的 


语义 特征 问题 。 
入 将 SCDV 扩 
聚 类 消 歧 问题 ， 


了 基于 上 下 文 消除 多 义 词 的 歧义 可 以 更 好 的 进行 文档 表示 。 
Gupta 还 表明 ， 


通过 对 预先 计算 的 词 向 量 进行 软 


2020 年 ，Gupta 等 人 在 字 向 量 上 获得 的 多 感 嵌 
展 到 了 SCDV-MS， 强 调 了 多 义 词典 入 如 何 解 决 
提高 了 典 入 性 能 ,进一步 增强 了 SCDVI。 证 明 


聚 类 中 的 稀疏 性 约束 是 有 利 的 。 进 一 步 提高 


SCDYVY 的 文档 表示 能 力 需要 进一步 提高 消除 文本 词语 歧义 能 力 。 


为 了 弥补 以 上 工作 的 缺陷 ， 文 章 使 


j 预 训练 的 BERT 上 


下 文 宜 入 作为 更 稳健 的 语义 消 歧 感 知 词语 岁入 与 SCDV 软 聚 
类 相 结合 并 调整 各 向 异性 以 提高 文本 语义 消 歧 的 综合 性 能 ， 


从 而 更 


有 效 的 进行 文本 表示 。 


2 ”模型 架构 
本 文 提 出 的 模型 SCDVAB 的 框架 主要 由 四 个 模块 组 成 : 


(1) 语 料 库 语 境 


文档 表示 的 形成 。 首 先 ， 通 过 语料库 语 境 化 模块 消除 该 词 在 
语料库 文档 中 的 歧义 出 现 ， 这 个 过 程 发 生 


个 独特 词 上 ; 


化 ; (2) 调 整 各 向 异性 ; (3) 词 艇 向 量 的 形成 ; (4) 


语料库 中 的 每 一 


其 次 ， 通 过 在 BERT 模型 上 调整 各 向 异性 减少 
对 文本 词语 语 境 化 影响 ; 


然后 ， 通 过 词 禾 向 量 形成 模块 将 上 
文化 词 内 入 聚 类 到 个 划分 中 ， 进 行 稀 疏 概 


一 步 获 得 的 上 


率 分 布 加 权 获得 词 篮 向 量 ， 这 一 过 程 发 生 


企 语 料 库 中 的 每 个 


消 蚊 词 上 ， 最 后 ， 通 过 文档 表示 模块 最 终生 成 稀 玻 复合 文档 


2.1 
SCDVAB 


站 


独 


特征 向 量 SCDVD, 。SCDVAB 文本 表示 模型 流程 如 图 1 所 示 。 
具体 过 程 如 算法 1 所 示 。 
语料库 语 境 化 


的 是 通过 单 


表示 法 第 一 步 是 语料库 语 境 化 ， 


FE 的 解释 消除 语料库 文档 中 词语 出 现 的 歧义 。 例如 ,“ 植 物 是 


靠 它 的 根 从 土壤 中 吸收 水 分 ”中 的 “水 分 ”一 词 和 “他 说 的 话 有 


很 大 的 水 分 ”中 的 “水 分 ”一 词 , 基于 它 


` 同 的 使 用 语 境 有 不 同 


的 含义 。 给 定 一 个 词语 W 及 其 在 语料库 文本 中 的 所 有 出 现 的 


语 境 形式 W,W，,.… 


,W,， 对 每 个 W 利用 预 训练 语言 的 BERT 得 


到 其 上 下 文化 嵌入 表示 必 。 将 词语 消 歧 问 题 视 为 上 下 文化 词 
语 向 量 的 局 部 聚 类 问题 "0。 对 通过 预 训练 BERT 模型 获得 的 


上 下 文化 词语 


词 向 量 % 聚 类 


料 库 所 有 文本 中 词语 W 的 全 部 可 能 


代入 进行 聚 类 。 使 用 K 均值 聚 类 将 语义 消 歧 
到 语料库 Y 中 词 的 上 个 划分 中 ， 其 中 上 表示 语 
的 解释 。 在 上 下 文 语义 空 


2.2 


大 


间 


间 
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中 ， 余 弦 距 离 能 够 反映 方向 上 的 差异 ， 故 可 使 用 文本 词语 
的 余弦 距离 作为 聚 类 度量 。 
es fe 

word 2 "WY 2 

ld Word-cluster vector 
， PIWCKik=WVi*P(CKW/W)| 
， Ww occuirence n-T 
word n-1 (Wn-]) 
[aaa Woccuirence n 
(Wn) idf 


Word-topics vector 
WtVi=idf (Wi)*® K_ wevs 


men Vector|sparse 
dv=》 WtVi 
加 | 


SCDVAB 模型 流程 图 
Fig. 1 SCDVAB model flow chart 

算法 1 SCDVAB(SCDV+Anisotropy+BERT) 算 法 

输入 : 文档 D, ,n=1...N 。 

输出 :文档 向 量 SCDVD, , n=1...N 。 

对 于 每 个 W,， 运 用 BERT 模型 计算 语 境 化 嵌入 表示 b ; 

计算 idf 值 : idf (W); 

计算 


SelfSim, (W)=— Deos(f.(s), (si) 


Preprocessed Document 


图 1 


IntraSim, (s)= 1 Ycos(s,,f, (s,i)) 
ni 


其 中 =- 


n 


27(50) 


aa 
2 
基于 K-means 模型 对 b, 聚 类 ， 形 成 K 类 ; 
将 Cr ，Co ，，Cw 分 别 作为 K 类 的 中 心 节 点 ; 
基于 词语 W 和 计算 类 Ce ， 计 算 其 条 件 依赖 概率 P(CiIw) ， 
for 词汇 表 V 中 每 一 个 词语 W. 

for 每 一 个 _Cx 

计算 WCKs =WV*P(GIW) ; 


MEV (W)= 


end 

计算 Woy =idf (W)* ®t WOCvk ; 
end 

for ne(1..N)do 
初始 化 文本 向 量 4VD, =0 ; 


for 词语 网 in Dn 
P 
计算 dv= >_ Wn 
| 
end 
计算 SCDVD, =maake 一 sparse(dVD,) ; 
end 
词 得 向 量 的 形成 
设 Ca, Cw,…, Cw 为 对 词语 W 进行 k 均值 聚 类 后 得 到 的 


个 聚 类 质心 。 将 个 质心 表示 视 为 词语 W 的 上 个 意义 的 多 


义 词 表示 。 在 对 语料库 中 出 现 的 每 个 词语 W 进行 聚 类 后 ， 计 
算 BERT 表示 和 质心 嵌入 ( 即 Cu , Cs,…, Cw ) 之 间 的 余弦 相 


似 度 来 执行 上 下 文化 
即 该 事件 的 词义 作为 该 词语 Ww 


的 词义 消 监 ， 找 到 最 近 的 聚 类 质心 7 ， 
岗 的 上 下 文 消 歧 词 语 和 嵌入 。 


HH 
指定 僚 入 cv 的 最 近邻 聚 类 质心 作为 该 词 W 出 现 的 语 境 化 消 
歧 词 戏 入 。 对 所 有 出 现 的 词语 W 重复 上 述 过程 ， 获 得 最 终 意 
义 的 上 下 文 消 卜 词语 嵌入 。 词语 W 的 每 一 个 语 境 化 嵌入 都 充 


a 


当 了 消除 歧义 的 词语 向 量 。 
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录用 定稿 李 保 珍 ， 
2.3 调整 各 向 异性 

调整 各 向 异性 的 过 程 使 用 三 种 不 同 的 度量 标准 来 衡量 
个 词 的 上 下 文 表 示 方 式 : 自 相 似 性 、 句 内 相似 性 和 最 大 可 解 
释 方差 0W 1。 对 于 自 相似 性 和 名 内 相似 性 ， 基 线 来 自 不 同 
下 文 的 均匀 随机 抽样 词语 表示 之 间 的 平均 余弦 相似 性 。 对 于 
最 大 可 解释 方差 MEV)， 通 过 计算 由 均匀 随机 抽样 词语 表示 


的 第 一 主 成 分 解释 的 方差 比例 ， 


例 。 使 用 BERT 最 后 


是 指 7 个 唯一 


SelfSim, (w) 


其 中 ， f(s,i) 是 二 个 


上 下 文中 上 


词语 W 越 语 境 化 ， 自 相似 性 越 低 


从 原始 MEV 中 减 去 该 比 
层 进行 词语 嵌入 吕 ]。 这 里 的 自 
下 文化 表示 之 间 的 平均 余弦 相似 性 。 


= eos (p(s) f(s )) 


Ws 
nn 个 


将 *[ 映射 到 模型 / 


的 “ 层 叶 


相似 性 


(1) 


FPF 表 示 的 函数 。 
一 个 句子 的 句 内 相似 


度 是 它 的 词 表示 和 句子 向 量 之 间 的 平均 余弦 相似 度 ， 也 就 是 


这 些 词 向 量 的 平均 值 。 


IntraSim, (s)= Ycos(s,,f, (s,i)) 
ni 


2 
where s, = 了 了 之 广 (5 


GO) 


最 大 可 
例 ， 可 以 用 第 


解释 方差 是 W 对 给 定 


主 成 分 来 解释 。 


度 上 替代 词语 的 上 下 文 表示 。 


其 中 ， [fi (sh)fi(sii)] 是 W 汞 事件 矩阵 ， 
为 了 调整 各 向 异 怕 


E 的 影 


条 基线 对 应 上 


文 度量 。 对 于 


自 相 似 性 


线 是 来 


不 同上 


文 
弦 相 似 性 。 给 定 层 中 
1。 对 于 最 大 可 解释 方差 , 基线 是 


0 是 入 


慨 的 语 境 化 表示 的 方差 比 
说 明 静 态 嵌 入 可 以 在 多 大 程 


G3) 


E 阵 的 奇异 值 。 
使 用 三 条 各 向 异性 基线 ， 每 

和 名 内 相似 性 ， 基 
的 均匀 随机 抽样 词语 表示 之 间 的 平均 余 


的 词语 表示 越 各 向 异 


性 ， 


该 基线 越 接近 


第 一 主 成 分 解释 的 均匀 随 


性 ， 该 基线 越 接 近 


获得 各 向 异性 调整 的 同 


机 抽样 的 词语 表示 中 


的 方差 比例 。 给 定 层 
1。 从 每 个 度量 值 中 减 


中 的 表示 越 各 向 异 


去 其 各 自 


值 基线 ， 


期 性 度量 。 原 始 度 


1K 均匀 随机 抽样 的 词语 表示 进行 估计 的 。 
Baseline(f.)= E, ,vo) [cos(f, (x),f.(3))] 
SelfSim:; (w)= SelfSim, (w)— Baseline( f,) 


其 中 ， 
的 层 中 更 具 各 向 异 怕 


量 和 基线 都 是 


2 是 所 有 词语 出 现 的 集合 。 上 下 文化 表示 通常 在 较 高 


使 用 


(4) 


岗 也 是 不 同 的 。B 


En 上 
ERT 层 越 高 ， 平 均 


相似 


文 各 向 异性 在 不 同 的 模型 中 的 
性 越 低 。 相 反 


性 ， 这 种 


居 次 越 高 ， 上 下 文 
语 境 中 的 表示 仍然 比 两 个 不 同 词 的 表示 具有 
相似 性 在 上 层 要 低 得 多 。 语 境 化 模型 的 上 层 会 产 


化 表示 就 越 


人体 [15] 。 


生 更 为 特定 的 语 境 表示 ,很 像 LSTM 的 上 


定 于 任务 的 表示 。 
2.4 文档 表示 


算 idf 值 i (Ww),i=1. 


-|Y1。 其 中 区 


确保 每 个 词 都 以 一 定 的 概率 ?(GWw) 属于 每 
通过 贝 叶 斯 规则 计算 给 定 主 题词 和 给 定 词语 W 的 概率 


P(Gw) 。 其 中 : 


Plc wi )P(wi) 
P(c) 


i 


P(w lc,) = 


Plo)=SP(eha PG) 


#(w) 
Pt) 


P(w)= 


是 词汇 量 。 


个 了 


层 如 何 入 


同一 个 词 在 不 同 
有 更 大 的 余弦 相似 


成 更 多 特 


针对 预 训练 BERT 获得 的 每 个 词语 允 的 词 向 量 ww ， 计 
通过 引入 软 聚 类 


个 聚 类 类 别 。 


对 于 词汇 表 中 每 一 个 词语 W 及 每 一 个 聚 类 


weki = wy; *P(c, hs) 


Cr， 


(5) 


(6) 


(7) 


(8) 
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对 于 每 个 词语 Ww ， 通 过 加 权 词 语 在 第 上 个 聚 类 中 的 概率 


分 布 P(CIw) ,创建 上 个 不 同 的 4 维 词语 聚 类 向 量 wWcw 。 然 后 ， 
将 所 有 大 个 词 聚 类 向 量 wcw 连接 到 一 个 Kxd 维 谋 入 中 ， 并 
使 用 Ww 的 逆 文 档 频 率 即 idf 对 其 进行 加 权 ， 形 成 一 个 上 下 文 
化 的 词 主 题 向 量 WiV 。 

wiv; = idf (w; )x DBE! wevin 
， 旬 是 串联 的 意思 。 
初始 化 文档 向 量 4VD, =0 ，ne(..N)。 最 后 ， 对 于 文档 D， 
中 出 现 的 所 有 词语 ， 将 它们 的 词 主题 向 量 wiv 相 加 获得 文档 


向 量 dvD, 。 


(9) 


三 网 5 


(10) 


对 向 量 进行 归 一 化 ，dvD, 中 的 大 多 数值 都 非常 接近 于 零 
016]。 通 过 将 绝对 值 接 近 阔 值 的 属性 值 归 零 ， 使 文档 向 量 avD， 
稀 琉 ， 从 而 生成 稀 玖 复合 文档 辣 量 SCDVD, 。 


SCDVD, = make — sparse( dVD, ) 


dV = Vw 
i=] 


(11) 


3 ”实验 与 分 析 

为 了 评估 SCDVAB 算法 的 综合 性 能 , 首先 对 算法 的 嵌入 
精确 性 和 其 他 最 新 上 下 文 嵌 入 技术 进行 对 比 ， 并 且 在 概念 匹 
配 和 语义 文本 相似 度 任务 上 进行 了 实验 。 


人 


3.1 实验 环境 
算法 的 实验 环境 如 表 1 所 示 。 
表 1 实验 环境 
Tab. 1 _ Experimental environment 

实验 环境 环境 配置 实验 环境 环境 配置 

CPU Intel® Coreni7-10710U 编程 语言 Python3.7.11 
操作 系统 Windows10 发 工具 Pycharm 

内 存 32GB 深度 学 习 框架 Tensorflow 2.4.1 


3.2 数据 集 和 基线 

为 了 分 析 语 境 化 的 词语 表示 ， 需 要 输入 句子 到 预先 训练 
好 的 模型 中 。 在 4 个 广泛 使 用 并 且 公 开 的 分 类 数据 集 上 进行 
了 实验 比较 精确 性 : (1D)Amazon 数据 和 了 4 个 类 别 ，8000 
条 文本 ; (2)Classic 数据 集 , 有 4 个 类 别 ,7095 条 文本 ; (3)20NG 


A 


数据 集 ， 是 新 闻 组 文本 数据 集 ， 有 20 个 类 别 , 每 个 类 别 样本 
数目 相同 ， 一 共 包含 18846 篇 文本 ，(4)Twitter 数据 集 ， 有 3 


个 类 别 ,3115 条 文本 。 实 验 将 doc2vecc,idf 加 权 的 word2vec， 
BERT ，SCDV+word2vec ，SCDV+BERT( 加 权 平 均值 )， 
SCDV+BERT 设 为 对 比 基 线 ,特别 地 ， 设 置 SCDV+BERT( 加 
权 平 均值 ) 为 基线 , 是 为 了 分 析 基 于 词义 消 歧 的 词 向 量 能 够 更 
有 效 地 捕捉 词 的 多 重 含义 。 设 置 SCDV+BERT 基线 , 目的 是 
分 析 减 少 了 各 向 异性 的 影响 。 使 用 k=6 配合 各 向 异性 调整 。 
基线 取 自 Gupta et al,2020 论文 的 实验 部 分 071。 

概念 匹配 任务 是 将 概念 与 相关 项 目 联系 起 来 。 概 念 匹配 
数据 集 包 括 来 自 下 一 代 科 学 标准 3 (NGSS) 的 53 个 独特 概念 
的 537 对 项 目 和 概念 ， 以 及 来 自 Science Buddies 的 230 个 独 
特 项 目 。 实 验 与 TF-IDF 加 权 向 量 、SCDV+Word2Vec 预 训练 
的 BERT 基线 之 间 的 余弦 相似 度 进行 对 比 。 基 线 取 自 2020 年 
Zhang 和 Danescu-Niculescu-Mizil 的 实验 部 分 03。 

句子 相似 性 任务 是 计算 两 个 文本 在 语义 层面 的 相似 性 ， 
实验 的 输入 数据 来 自 涉及 2012-2016 年 间 的 27 项 语义 文本 
相似 性 (STS) 任 务 09。 数 据 集 中 每 年 有 4 到 6 项 STS 任务 ， 
详细 任务 见 表 2。 使 用 这 些 数据 集 是 因为 它们 包含 相同 词语 
出 现在 不 同上 下 文中 的 句子 。 在 所 有 的 数据 集中 ， 每 一 个 词 
语 都 有 多 个 多 义 词 。 基 线 取 自 Perone et al,2018[2%]、Devlin et 
al2019D2U 以 及 Gupta et al,202007 的 实验 部 分 。 
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表 2 STS 任务 SCDVAB 模型 在 概念 匹配 任务 上 的 优越 性 ， 侧 面体 现 了 
Tab.2 STS task SCDVAB 模型 在 解决 文本 词语 的 歧义 性 以 及 准确 界定 词语 
STS12 STS13 STS14 STS15 STS16 在 特定 上 下 文 语 境 中 的 语义 特征 的 性 能 上 的 优势 。 
MSRpar headline deftforum answer-forums headlines 表 5 SCDVAB 与 各 种 STS 任务 的 最 新 庶 入 技术 对 比 
MSRvid OnWN deft news answers-students plagiarism Tab.5 Comparison ofthe latest embedding technologies between 
SMT-eur FNWN headline belief postediting SCDVAB and various STS tasks 
OnWN SMT images headline ans-ans Embedding Y12 Y13 Y14 Y15 Y16 Avg. 
SMT-news OnWN images ques-ques ELMO origtall 55 51 63 69 64 60.4 
Tweet news ELMO orig+top 54 49 62 67 63 s9 
3.3 ”实验 设置 BERT 53 67 62 73 67 64.4 
使 用 BERT 无 基础 预 训练 模型 获得 词语 嵌入 , 并 使 用 K- P-mean 54 52 63 6 6 604 
means 对 给 定 词语 进行 上 下 文 聚 类 。 为 了 简单 起 见 ， 实 验 对 fastText 58 58 65 68 64 62.6 
所 有 的 数据 使 用 了 0.8 的 相似 性 闹 值 (DD) ， 这 导致 每 个 词 都 有 SkipThoughts 41 29 40 4 52 416 
多 个 多 义 词 表示 。 统 计 相 似 程度 的 分 布 ， 其 中 ， 实 验 不 考虑 PSIFIPSL 657 640 748 773 737 711 
出 现在 不 到 5 个 独特 上 下 文中 的 词语 。 训 练 集 和 测试 集 按 八 uSIF+PSL 658 62 759 776 723 714 
二 比例 划分 , 对 于 SCDV, 将 词语 藤 入 的 维度 设置 为 200, 设 Word2vect+SCDV 64.1 639 730 769 773 71.0 
置 k=6 进行 各 向 异性 调整 ， 使 用 5 倍 交叉 验证 来 调整 SCDV BERT+SCDV 647 640 754 771 773 70.9 


的 稀疏 闵 值 。 SCDVAB 66.8 641 773 780 746 722 
3.4 实验 结果 分 析 表 5 展示 了 SCDVAB 模型 与 各 种 最 新 嵌入 技术 的 比较 。 
表 3 为 SCDVAB 与 其 他 基线 模型 在 4 个 数据 集 上 的 精 “实验 的 数据 为 皮尔 逊 相关 系数 乘 以 100。 观 察 各 模型 在 数据 
确 性 表现 , 实验 结果 为 各 模型 训练 10 次 的 平均 值 。 从 表 2 实 。 集 上 的 性 能 表现 ，SCDVAB 模型 显著 优 于 其 他 基线 模型 ， 证 
验 结果 可 知 ，SCDVAB 模型 在 所 有 数据 集 上 比 其 他 的 上 下 文 明了 改进 模型 的 有 效 性 。 根 据 实验 结果 观察 到 ， 通 过 结合 
语 境 文本 表示 方法 效果 都 更 为 出 色 。 SCDYV 的 算法 模型 比 其 他 算法 产生 更 好 的 性 能 。 这 种 情况 的 
表 3 SCDVAB 与 各 基线 精确 性 对 比 主要 原因 是 , SCDYV 通过 对 预先 训练 的 词 向 量 进行 软 稀 玻 聚 类 ， 
Tab. 3 Comparison of SCDVAB and baseline accuracy 进一步 将 表示 性 能 从 句子 扩展 到 文本 ， 证 明了 SCDVAB 利用 
Embedding < Amazon Classic Twitter SODY 的 仿 半 仁 。 号 Wowd2veetSODY 相 比 ， 由 于 考虑 了 词义 消 
歧 以 及 语 境 化 表示 能 力 ,SCDVAB 显著 提高 了 Pearson 的 分 数 。 
Doc2vecC 78.20 91.10 96.60 71.00 BERT+SCDYV 相 比 Word2vec+SCDV 略 有 改进 ， 但 相 比 改进 的 
Word2vec(idf 加 权 ) 81.70 93.90 95.20 72.00 SCDVAB 还 是 略 有 逊色 的 。 这 是 因为 SCDAB 模型 考虑 了 调整 
BERT 64.78 91.04 95.63 66.64 各 向 异性 对 于 BERT 词义 消 歧 的 影响 。 
SCDV+word2vec 84.87 93.84 96.90 74.17 为 了 验证 SCDVAB 模型 对 比 其 他 模型 的 性 能 优越 性 , 下 
BERT( 加 权 平 均 )+SCDV 84.88 94.59 95.62 72.98 机 展示 了 STS12 数据 集中 MSRvid 任务 中 的 的 几 条 样本 相似 
BERT+SCDV 86.07 94.15 97.81 75.97 性 用 于 部 分 实验 结果 的 可 视 化 和 分 析 , 样本 描述 如 表 6 所 示 ， 
SCDVAB 86.92 95.87 99.01 77.03 中 数据 已 做 标准 化 处 理 。 
通过 表 3 实验 结果 分 析 , 语 境 化 的 BERT+SCDYV 比 加 权 表 6 STS12 MSRvid 数据 集 相似 性 样本 实例 对 
平均 的 BERT+SCDYV 表现 更 好 。 词 向 量 的 简单 加 权 通 常 能 够 Tab.6 STS12 msrvid dataset similarity example pair 
产生 有 效 的 句子 表示 ， 但 表示 包含 多 个 句子 的 长 文本 时 ， 相 sentence 1] sentence2 GT PSIF BERT+SCDV SCDVAB 


比 基 于 词义 消 歧 的 词 向 量 效果 要 差 。 这 是 因为 较 长 句子 的 文 Runners Runners 

本 可 能 包含 大 量 不 同 话题 的 词语 。 实 验 结果 表明 基于 词义 消 race around compete ina 0.64 0.7453 0.6933 0.6418 
靶 的 词 向 量 能 够 捕捉 到 词 的 多 重 含义 ， 证 明了 语义 消除 歧义 a track. race 

的 贡献 。 其 次 ,SCDVAB 模型 相 比 BERT+SCDY 模型 的 精确 Amanis  Awoman is 

度 分 别 高 了 0.85%、1.72%、1.2% 和 1.06%， 证 明了 调整 各 向 ridinga ridinga 0.15 0.2725 0.164 0.160 
异性 的 优势 影响 。SCDVAB 模型 的 性 能 优 于 BERT( 加 权 平 motorcycle. horse. 


均 )+SCDV, 这 表明 SCDVAB 基于 词义 消 歧 的 词 向 量 能 够 有 效 People are The cricket 
地 捕捉 多 义 词 ， 调 整 各 向 异性 能 够 提升 语 境 化 表示 能 力 ， 更 playing playerhitthe 0.1 0.2371 0.12 0.0973 
符合 语料库 语 境 。 baseball. ball. 
表 4 概念 匹配 精确 率 及 Fl 值 对 比 A animated 二 
Tab.4 Comparison of concept matching accuracy and Fl value airplane is 全 0.56 0.6338 0.7206 0.5773 
Embedding Accuracy Fl landing. 
TF-IDF 53.8 70.0 观察 表 6 实验 结果 发 现 , 在 SCDVAB 模型 上 得 到 的 相似 
BERT 54.7 70.6 性 分 数 对 比 其 他 模型 都 更 接近 给 定 的 相似 性 ， 证 明了 改进 模 
Word2vec+SCDV 53.6 70.0 型 在 计算 两 个 文本 在 语义 层面 的 相似 性 上 的 优越 性 。 
BERT+SCDV 57.1 73.8 在 表 7 探讨 了 几 个 模型 在 STS16 上 文本 相似 性 任务 的 实 
SCDVAB 58.9 74.6 验 结果 ， 用 于 进一步 验证 SCDVAB 的 改进 对 于 性 能 的 提升 。 
基于 表 4 观察 各 模型 的 性 能 表现 ，SCDVAB 模型 在 精确 根据 表 7 的 实验 结果 可 以 看 出 , 在 STS16 任务 中 改进 模 
率 和 Fl 值 上 分 别 比 预 训练 的 BERT 模型 和 Word2Vec+SCDV ” 型 在 所 有 数据 集 上 都 优 于 其 他 算法 , 证 明了 SCDVAB 模型 的 
模型 分 别 高 出 4.2%、4% 和 5.3%、4.6%。 对 比 BERT+SCDV 优越 性 ,对比 各 模型 在 数据 集 上 的 表现 , PSIF+PSL 模型 效果 


模型 在 精确 率 和 Fl 值 上 分 别 高 出 了 1.8% 和 0.8%， 证 明了 优 于 skip thought 模型 。 这 是 因为 P-SIF 从 文本 中 学 习 特定 于 
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主题 的 向 量 ， 考 虑 了 文本 主题 结构 利用 了 分 区 平均 技术 。 而 
skip thoughts 模型 结构 借助 skip-gram 思想 ,缺少 考虑 词语 在 
特定 上 下 文 语 境 中 的 语义 特征 。 而 BERT+SCDV 模型 与 P- 
SIF+PSL 模型 相 比 效果 相差 不 大 ， 但 略微 差 一 些 。 猜 测 原因 
可 能 为 ， 未 做 改进 的 BERT 对 于 文本 长 度 有 限制 ， 
SIF+PSL 模型 是 针对 长 文本 的 分 区 平均 算法 更 有 针对 性 。 
SCDVAB 模型 对 比 BERT+SCDYV 模型 性 能 有 所 提升 , 进一步 
体现 了 考虑 各 向 异性 的 重要 性 。 
表 7 各 模型 STS16 上 文本 相似 性 任务 实验 结果 

Tab.7 Experimental results on textual similarity tasks on STS 16 


Tasks Skip thoughts PSIF+PSL BERT+SCDV SCDVAB 
headlines 51.12 75.6 74.7 76.2 
plagiarism 66.77 81.6 81.3 82.3 
Post editing 69.95 83.7 83.6 84.7 
ans-ans 28.83 60.2 60.1 61.6 
ques-ques 40.66 67.2 66.9 68.2 
STS16 52 73;7 83 74.6 
4 ”结束 语 


考虑 文本 表示 时 需要 解决 的 词语 歧义 性 问题 ， 以 及 词语 
在 特定 上 下 文 语 境 中 的 语义 特征 问题 ， 本 文 提出 了 文本 语义 
消 歧 的 SCDVAB 算法 模型 。 通 过 预先 训练 的 BERT 上 下 文 
化 ， 并 减少 各 向 异性 的 影响 来 增强 稀疏 文本 表示 (SCDV)， 为 
上 下 文 文档 表示 提供 了 一 个 更 高 效 、 更 准确 的 文本 表示 方法 。 
基于 各 向 异性 调整 之 后 的 BERT 语义 消 歧 词 向 量 ， 运 用 
SCDYV 转换 为 文本 的 特征 向 量 ， 可 准确 表示 词语 在 特定 上 下 
文 语 境 中 的 语义 特征 , 具有 较 强 的 实际 意义 。 实 验 结果 表明 ， 
SCDVAB 模型 优 于 其 他 无 监督 方法 ,在 文本 语义 消 歧 的 综合 
性 能 上 更 出 色 。 相 关 模 型 可 有 效 提高 多 主题 长 文本 表示 、 多 
场景 文本 概念 消 歧 以 及 抽取 式 阅 读 理解 等 文本 表示 相关 任务 
的 效率 。 
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